home *** CD-ROM | disk | FTP | other *** search
/ Power Tools 1993 November - Disc 2 / Power Tools Plus (Disc 2 of 2)(November 1993)(HP).iso / hotlines / gsyhl / hawhite / whitep.txt < prev   
Text File  |  1993-05-12  |  62KB  |  1,208 lines

  1.  
  2.  
  3.                           HP'S HIGH AVAILABILITY SOLUTIONS
  4.                                  TABLE OF CONTENTS
  5.  
  6.  
  7.      INTRODUCTION ..............................................3
  8.      HIGH AVAILABILITY REQUIREMENTS ............................4
  9.      WHAT CAUSES DOWNTIME? .....................................5
  10.      FAULT TOLERANT vs HIGHLY AVAILABLE SYSTEMS.................6
  11.      HIGH AVAILABLE SOLUTIONS ..................................6
  12.           RELIABLE SYSTEMS .....................................8
  13.           DATA AVAILABILITY ...................................11
  14.                DISK ARRAYS ....................................11
  15.                HP DATAPAIR/800 ................................12
  16.           SYSTEM AVAILABILITY ..................................15
  17.                SWITCHOVER/UX ..................................15
  18.      HIGH AVAILABILITY DIRECTIONS .............................18
  19.      FAULT TOLERANT SOLUTIONS..................................21
  20.  
  21.  
  22.      APPENDIX A
  23.           SWITCHOVER/UX OPERATION .............................28
  24.      APPENDIX B
  25.           SWITCHOVER/UX QUESTIONS AND ANSWERS .................34
  26.  
  27.  
  28.  
  29.                            HIGH AVAILABILITY SOLUTIONS
  30.  
  31.      INTRODUCTION
  32.  
  33.      The demand for greater system availability expands as businesses
  34.      base their operation and competitiveness on mission critical
  35.      applications - applications that are integral in the day to day
  36.      operation of an organization.  Because of market pressures and
  37.      user expectations, the need for higher availability is greater
  38.      than ever before.  Services such as the following depend on
  39.      continuous operation of computing resources:
  40.  
  41.         * On-line order entry, funds transfer, message switching and
  42.           realtime process monitoring.
  43.         * Operational services such as systems development capabilities
  44.           and departmental services such as billing and personnel.
  45.         * Administrative support applications such as electronic mail,
  46.           decision support and word processing.
  47.  
  48.      The loss of computing capabilities can impact production, revenue,
  49.      critical decision making, customer satisfaction and even human
  50.      life.  The Gartner Group summarizes the evolution occurring in the
  51.      the 1990s as,
  52.  
  53.           "Technology is approaching 'no-compromise' 7x24x52 (7 days
  54.           per week, 24 hours per day, 52 weeks per year) availability
  55.           on a spectrum with substantial granularity.  Users now can
  56.           match required service levels to the 'availability
  57.           investment' of a proposed solution."
  58.  
  59.      System downtime can incur the following costs:
  60.  
  61.           * Incomplete or late work resulting in penalties or loss of
  62.             customer confidence and satisfaction
  63.           * Idle staff, because the system failure isolates employees
  64.             from resources necessary to complete their tasks
  65.           * Underutilized capacity and loss of business opportunity
  66.           * Loss of human life
  67.  
  68.      As the cost associated with downtime increases, greater levels of
  69.      availability are financially justified.  Hewlett Packard provides
  70.      a broad range of availability solutions that includes reliable
  71.      components, redundant components, recoverable systems and fault
  72.      tolerance.
  73.  
  74.      This white paper discusses how Hewlett Packard is addressing these
  75.      three aspects of availability by providing solutions that prevent
  76.      and eliminate failures that cause downtime:  hardware, software,
  77.      operations, and the computing environment.
  78.  
  79.  
  80.      HIGH AVAILABILITY REQUIREMENTS
  81.  
  82.      When planning a computing environment, there are several crucial
  83.      elements which are typically considered.  Among the major elements
  84.      are performance, scalability, capacity, functionality,
  85.      interoperability and availability.  Market pressures and user
  86.      expectations have forced system designers and implementers to
  87.      consider availability as an integral part of the system solution.
  88.  
  89.      Organizations must include higher availability solutions into
  90.      their environments in a way which fits the goals for
  91.      compatibility, connectivity, integration and cost-effectiveness.
  92.      It is possible to measure the likely cost of downtime and
  93.      determine the configuration or solution which addresses the level
  94.      of availability required.
  95.  
  96.      There are several key requirements which today's computing environments
  97.      must incorporate to address the availability needs for an organization's
  98.      business.  The three most crucial are:
  99.  
  100.           1) data availability, integrity and recovery
  101.           2) minimal or no planned downtime
  102.           3) minimal unplanned downtime
  103.  
  104.      How a system performs each of these metrics determines how well
  105.      the system can meet the defined needs.
  106.  
  107.      The first requirement, data availability and integrity, is the
  108.      most critical since it refers to the accuracy, correctness,
  109.      consistency and validity of the data.  In environments where
  110.      computer systems are constantly being relied upon to provide
  111.      information for making critical business decisions, data can never
  112.      be corrupted or permanently lost.
  113.  
  114.      After the data is guaranteed intact, the second and third
  115.      requirements together determine the system's availability.
  116.      Planned downtime is the time a system is unavailable for
  117.      predetermined periods to perform tasks like system maintenance,
  118.      software or hardware upgrades and disk backups.  Unplanned
  119.      downtime is the time a system is unavailable due to unanticipated
  120.      events like hardware failures, environmental errors and operator
  121.      errors.  In general, the computing resources must be designed so
  122.      that neither planned nor unplanned downtime will negatively impact
  123.      essential business operations.
  124.  
  125.  
  126.  
  127.      WHAT CAUSES DOWNTIME?
  128.  
  129.      In developing a strategy to address the basic system requirements,
  130.      it is useful to understand why systems fail.  The figure below
  131.      illustrates the results of a Gartner Group study on downtime for
  132.      both conventional and fault tolerant systems.
  133.      As shown in the figure, downtime can be divided into four
  134.      categories:  hardware, software, people and environment.
  135.  
  136.           Hardware
  137.                - Processors
  138.                - Peripherals such as disk drives, printers, etc
  139.                - Memory
  140.  
  141.           Software
  142.                - Operating System
  143.                - Layered software products such as transaction processing
  144.                  monitors and database management systems
  145.                - Application programs
  146.  
  147.           People
  148.                - Management and operations personnel
  149.                - Support engineers
  150.  
  151.           Environment
  152.                - Electrical power
  153.                - Catastropic such as fire, earthquake, flooding
  154.  
  155.      Because hardware is only one component which contributes to system
  156.      failures, it is generally not enough to address the issue of
  157.      system availability with just fault tolerant processors.  Systems
  158.      must be designed to survive a broad spectrum of failures ranging
  159.      from software and hardware faults to people and environmental
  160.      problems.
  161.  
  162.      This paper details HP's current High Availability and Fault
  163.      Tolerant product offering and defines the strategic direction.
  164.  
  165.  
  166.      Fault Tolerant vs Highly Available Systems
  167.  
  168.      Fault tolerant systems are installed in environments that require
  169.      no interruption of user service and absolute data integrity.  The
  170.      architecture of fault tolerant systems includes fully redundant
  171.      components in a single package.  The functionality handles
  172.      hardware failures and also insures application programs cannot be
  173.      corrupted by errors resulting from any single point hardware
  174.      failure.
  175.  
  176.      When a failure occurs, the recovery is virtually transparent to
  177.      applications and users, with minimal performance degradation.
  178.      Components of the system, such as CPU boards or memory can be
  179.      added or replaced on line, therefore minimizing the need for
  180.      planned downtime.
  181.  
  182.      Highly available systems are sometimes referred to as
  183.      fault-resilient systems.  They are capable of delivering some of
  184.      the features (such as integrity of data on disks) and functions of
  185.      fault tolerance, however some system downtime will be associated
  186.      with a system failure.  Highly available systems are based on
  187.      reliable computers, configured to significantly increase the
  188.      availability of the system.  They quickly recover from both
  189.      software and hardware faults within minutes of detecting a
  190.      problem.  They are typically a loosely coupled configuration.
  191.      Highly available solutions which incorporate multiple or redundant
  192.      components are able to efficiently utilize the available resources
  193.      under normal operating conditions.
  194.  
  195.  
  196.      HIGH AVAILABILITY SOLUTIONS
  197.  
  198.      The increasing reliance of computing in all phases of business is
  199.      driving the need for increased data availability and integrity,
  200.      minimization of unplanned downtime and elimination of planned
  201.      downtime.
  202.  
  203.      As shown in the following figure, five tiers of solutions exist
  204.      today to address system availability issues.  The first of these
  205.      is to provide extremely reliable systems, systems which provide a
  206.      solid basis for operations.  Data integrity and increased data
  207.      availability can be obtained through the use of disk arrays
  208.      operating in high availability mode.  To further address data
  209.      availability, the third tier provides disk mirroring functionality
  210.      through HP Datapair/800.  The fourth tier provides nearly
  211.      continuous system processing with Switchover/UX, designed to have
  212.      a standby system take over for a failed mission-critical primary.
  213.      The final tier steps above high availability to the realm of fault
  214.      tolerance where the Series 1200 fault tolerant systems provide
  215.      absolute data integrity and continuous system processing.
  216.  
  217.      The next several sections will discuss these tiers of availability
  218.      solutions.
  219.  
  220.  
  221.      RELIABLE SYSTEMS
  222.  
  223.        HP's strategy for addressing the growing need for increased
  224.        system availability is to provide flexible, highly available
  225.        systems.  The foundation for the Series 800 Business Servers
  226.        is its processors and peripherals which lead the industry in
  227.        reliability.
  228.  
  229.        HP's PA-RISC architecture and advanced VLSI technology
  230.        dramatically increases reliability by reducing the number of
  231.        parts that can fail.  Actual field data shows that the MTBF
  232.        (Mean Time Between Failure) for HP systems exceeds three years
  233.        and the Series 8x7 systems have a projected MTBF of 4.8 years.
  234.        System uptime typically exceeds 99.97 percent.  Other vendors
  235.        typically provide 99.5 percent uptime for conventional systems.
  236.        Although the .47 percent may appear insignificant, this equates
  237.        to an additional 41.2 hours per year downtime over the HP Series
  238.        800 systems.
  239.  
  240.        Our disks also provide a very high MTBF due to HP's outstanding
  241.        disk technology.  HP manufactures its own drive mechanisms for
  242.        use in both HP computers as well as the computers of other large
  243.        companies.  The quality of drives is now measured in decades
  244.        between failures; typical mass storage subsystem can have a
  245.        MTBF of 100,000 hours, or over 11 years of continuous operation.
  246.        This is a complete subsystem that includes power supply,
  247.        controller board, etc. (not just the disk itself).
  248.  
  249.        HP will provide Support Watch, a proactive approach to hardware
  250.        support.  HP Support Watch detects and reports transient
  251.        hardware faults before they result in unplanned downtime.  If a
  252.        problem is found, the software alerts the HP Response Center
  253.        before a failure occurs.
  254.  
  255.        HP quality extends to software as well.  HP performs extensive
  256.        testing of all major releases of the HP-UX operating system.
  257.        The release criteria includes certification for functionality,
  258.        usability, reliability, performance and supportability.  The
  259.        software reliability testing is measured in Continuous Hours of
  260.        Operation and is accomplished through extensive feature and path
  261.        flow coverage.  In addition, recovery capabilities are built
  262.        into the leading database management systems with which HP has
  263.        premier relationships.
  264.  
  265.        To address unforeseen circumstances such as power outages, the
  266.        Series 800 Business Servers support power-fail auto restart.
  267.        Power-fail auto restart preserves what is in main memory in the
  268.        event of a power interruption so that, upon power restoration,
  269.        normal operations can resume.  This eliminates any data loss (for
  270.        up to 15 minutes).
  271.  
  272.  
  273.        HP offers and Uninterruptible Power Supply (UPS), from a third
  274.        party manufacturer, Deltec.  UPS provides a constant flow of
  275.        refined, regulated, computer-grade power through virtually any
  276.        utility line disturbance.  The Deltec UPS protects hardware and
  277.        data from blackouts, brownouts, surges and spikes.
  278.  
  279.        Since operator error accounts for a significant amount of
  280.        downtime, HP is taking steps to minimize operator intervention.
  281.        For example, the Series 800 Business Servers are shipped as an
  282.        integrated package which includes the interface cards, operating
  283.        system and networking software pre-installed.  Another feature
  284.        is the autoconfiguration of the available devices into the
  285.        system upon boot-up of the system.  This reduces the operator
  286.        involvement in configuring devices during the system startup.
  287.        To effectively manage the disk utilization, the HP-UX operating
  288.        system includes the capability to set disk space limits (disk
  289.        quotas).  This provides a mechanism for controlling and
  290.        reporting user utilization of disk space.  Other software
  291.        solutions such as HP OmniBack and HP OmniBack/Turbo provide
  292.        unattended network backup, thereby eliminating any need for
  293.        operator intervention and possible operator error.
  294.  
  295.        In summary, HP's reliable systems provide a solid foundation
  296.        from which higher availability solutions can be added as
  297.        required.  This foundation includes PA-RISC architecture,
  298.        systems and peripherals with high MTBF, HP Support Watch, high
  299.        quality HP-UX operating system software and Power-fail auto
  300.        restart.
  301.  
  302.        FUTURE STRATEGY
  303.  
  304.        HP will continue to make the Series 800 systems more highly
  305.        available.  Several of the strategies which will be used to
  306.        accomplish this include online replacement of I/O cards, which
  307.        includes disk/tape controllers, data communication links, and
  308.        multiplexer cards.  Online CPU and memory replacement is also
  309.        being investigated for the multiprocessing systems.  Also
  310.        investigatations are underway to provide a more fault resilient
  311.        operating system to isolate application failures and alleviate
  312.        system panics.
  313.  
  314.        Additional availability functionality will be provided by
  315.        incorporating and adding value to emerging standards.  To
  316.        minimize operator errors, the utilization of easy-to-use,
  317.        intuitive graphical user interfaces will play a major role in
  318.        the evolving application development.  In addition, utilization
  319.        of fault isolation and event notification will be incorporated
  320.        within the evolving systems management solutions to further
  321.        automate overall operations.
  322.  
  323.        Increased availability can be gained through greater software
  324.        and application quality.  This is especially critical when
  325.        independently-developed applications are brought together for
  326.        the first time on a mission-critical system.  To address the
  327.        software development cycle, HP continues to provide high level
  328.        languages, change management tools, and Computer Aided Software
  329.        Environment (CASE) solutions.  In addition, HP is investigating
  330.        online debuggers and editors to facilitate the loading of an
  331.        application on a running system.
  332.  
  333.  
  334.  
  335.      DATA AVAILABILITY
  336.  
  337.      The second tier for providing higher availability is data
  338.      availability.  Since data is one of the most important assets of a
  339.      corporation, maintaining full access and integrity of the data is
  340.      critical to operations.  There are two approaches to increasing
  341.      data availability:  disk arrays and disk mirroring.
  342.  
  343.  
  344.        DISK ARRAYS
  345.  
  346.        The primary functions of disk arrays are to increase data
  347.        availability, to increase total storage capacity, and to provide
  348.        performance flexibility by selectively spreading data over
  349.        multiple disk drives.  HP's disk arrays protect data and allow
  350.        uninterrupted access to data in the event of a disk drive
  351.        failure.  The disk array in high availability mode utilizes a
  352.        separate data protection disk to store an encoded form of data
  353.        from the other disks in the array.  In the event of a disk drive
  354.        failure, the encoded disk allows continued access to the data
  355.        with no loss of system performance.  The failed disk may later
  356.        be replaced on-line and the encoded data will be reconstructed
  357.        onto the new disk.  HP's high availability disk arrays offer a
  358.        redundant array of inexpensive disks (RAID) level 3 mode of
  359.        operation which offers the best solution to meet HP OLTP
  360.        multiuser computer system requirements.
  361.  
  362.        In high availability mode, the disk array appears to the host
  363.        system as a single 2.7 or 5.4 gigabyte disk.  All the individual
  364.        mechanisms work in unison on every request from the host.  The
  365.        controller queues requests and executes them sequentially.
  366.        Since all the mechanisms work together in parallel, the transfer
  367.        rate of the array can be as high as four time the transfer rate
  368.        of a single disk.  This means that the high availability mode
  369.        will be most efficient at processing long, large transfers, or
  370.        on systems with low I/O (transaction rate) demand on disk
  371.        subsystems.
  372.  
  373.        The protection in the disk array is provided at a lower cost
  374.        than fully redundant disks used in disk mirroring solutions
  375.        since only 25% more disk space is needed to store the encoded
  376.        data versus up to 100% more disk space need to mirror data.
  377.        However, disk mirroring solution do offer more data protection
  378.        in that all cables, interfaces, power supplies and controllers
  379.        are duplicated.
  380.  
  381.  
  382.        HP DATAPAIR/800
  383.  
  384.        HP DataPair/800 prevents data loss by maintaining two copies of
  385.        data on separate disks so that the data is still intact after
  386.        any single disk or interface card failure.  DataPair/800 can
  387.        mirror any disk partitions including the root and swap
  388.        partitions.  It supports mirroring of raw disk access as well as
  389.        access through the file system.  Mirroring performance depends
  390.        upon the mix of disk reads and writes.  The mirrored write speed
  391.        is slightly slower than unmirrored writes since writes to both
  392.        disks must be completed before the mirrored write is complete.
  393.        Reads are done from the least busy disk and are optimized to the
  394.        point that the driver can achieve more than 100% I/O accesses
  395.        per second on read applications.
  396.  
  397.  
  398.        HP DataPair/800 works transparently to the application.  The
  399.        disk mirroring software works with the HP-UX kernel to manage
  400.        the mirrored disks, so no application modification is required.
  401.  
  402.        HP DataPair/800 allows you to take a disk in a mirrored pair
  403.        off-line to perform a backup, while applications continue to
  404.        access data from the on-line disk.  As the backup is being
  405.        performed, the changes which are being made to the on-line disk
  406.        are maintained in table memory.  When you bring the disk back
  407.        on-line after the backup procedure, a fast update is done to
  408.        return the mirror to a synchronized state.  Application
  409.        continuity is maintained during the synchronization state.
  410.  
  411.        You can create or delete a mirror at any time without suspending
  412.        your application thus allowing dynamic configuration.  HP
  413.        DataPair allows you to mirror the data which is critical to the
  414.        user or the application.  Partitions of the disk or the entire
  415.        disk can be mirrored.
  416.  
  417.        The operation of HP DataPair/800 can be done either using the
  418.        menu-driven interface of the HP-UX System Administration
  419.        Management (SAM) tool or through HP-UX shell commands.  HP
  420.        DataPair/800 works with HP Fiber Link (HP-FL) technology.  Sets
  421.        of disks are connected to the system using HP-FL interface
  422.        cards.  This prevents the I/O interface card from becoming the
  423.        single point of failure.
  424.  
  425.        FUTURE STRATEGY
  426.  
  427.        To address the need for increased data availability, HP will
  428.        continue to provide additional modes of disk array technology.
  429.        There are several modes of RAID technology including a mode to
  430.        provide mirroring capability.
  431.  
  432.        HP plans to incorporate Open Systems Foundation (OSF) technology
  433.        into the HP-UX operating environment.  One such technology is
  434.        the Logical Volume Manager (LVM).  The LVM provides two primary
  435.        pieces of functionality, disk management flexibility and
  436.        mirroring capability.  In the area of disk management
  437.        flexibility, the LVM allows user-defined disk partitions,
  438.        concatenation of partitions into volumes, file systems and raw
  439.        partitions to span multiple physical disks, the ability to grow
  440.        volumes online and dynamically detect, relocate and repair bad
  441.        disk sectors.
  442.  
  443.        In the area of high availability, the LVM provides triple
  444.        mirroring of volumes across SCSI and/or Fiber Link interfaces.
  445.        Triple mirroring allows mirroring, even during an online backup.
  446.        HP plans to offer the LVM in 1992.
  447.  
  448.  
  449.  
  450.      SYSTEM AVAILABILITY
  451.  
  452.      The next tier to providing higher availability is addressing
  453.      system availability.  Data availability solutions do not respond
  454.      to system interruptions which result from either system hardware
  455.      or software failures.  In the event of a failure at the system
  456.      level, the response should be a automatic and quickly return
  457.      operations back to normal conditions.
  458.  
  459.      SWITCHOVER/UX
  460.  
  461.      SwitchOver/UX provides near continuous operation of your mission
  462.      critical computing environment.  It is a combination of software
  463.      functionality and hardware interconnection that enables your
  464.      computer system, and applications which run on it, to recover
  465.      promptly from failure of a system processing unit (SPU).
  466.  
  467.      Using SwitchOver/UX, you can build highly-available groups of
  468.      hosts that provide high system availability.  In the event of a
  469.      processor failure, a standby processor can automatically begin
  470.      providing the services of the failed processor.  The standby
  471.      processor is connected to the same disks and LAN as the primaries
  472.      so it will become an identical replacement for the failed primary.
  473.  
  474.      SwitchOver/UX is ideally suited for environments with the
  475.      following characteristics:
  476.  
  477.          1) Require near-continuous operation.
  478.          2) Have a mix of critical and non-critical applications.
  479.          3) Multiple systems networked together.
  480.          4) Transaction based applications.
  481.          5) Utilize industry standard databases.
  482.          6) Can not justify the added cost of fault tolerance.
  483.  
  484.      While most target environments will have these characteristics,
  485.      SwitchOver/UX is flexible enough to be employed in a wide range of
  486.      applications.
  487.  
  488.  
  489.        SwitchOver/UX provides fast recovery without operator
  490.        intervention.  Using a "heartbeat" message to communicate the
  491.        state of the system, the primary or primaries allow the standby
  492.        to automatically detect a system failure of a primary and
  493.        automatically reboot the standby to become an identical
  494.        replacement for the failed primary.  Systems configured with
  495.        SwitchOver/UX do not require an operator to be present in order
  496.        to detect or respond to a failure.  Since there is no need for
  497.        operator intervention, the recovery time is significantly
  498.        decreased.
  499.  
  500.        By having multiple data paths through different processors, LANs
  501.        and I/O channels along with disk mirroring, there is no single
  502.        point of failure in a loosely-coupled processor configuration.
  503.        The individual failure of a component will not bring the system
  504.        down for an extended period of time.
  505.  
  506.        The recovery time for a system is dependent on the system size,
  507.        configuration and application.  The recovery process includes
  508.        fault detection, system recovery and application recovery.
  509.        (Refer to appendix A for details on the recovery process.)
  510.  
  511.        The standby system is active and can be used to provide
  512.        non-critical services.  For example, while the primaries are
  513.        running critical services in a production environment, the
  514.        standby could be used as a development system.  When the primary
  515.        fails, the processes on the standby can be gracefully shutdown
  516.        before the standby begins its recovery process.  Once the
  517.        primary is repaired it can be used as a standby to continue
  518.        development work.  By being able to utilize the standby for
  519.        services which can be interrupted for a short period of time in
  520.        the event of an processor problem, SwitchOver/UX maximizes your
  521.        computing investment.
  522.  
  523.        Most database applications are capable of recovering from
  524.        reboots.  Log files in databases keep track of all transactions
  525.        that the database has accepted and committed to disk.  When a
  526.        system is forced to reboot, either due to a system fault, power
  527.        failure or other incident, the database will lose the current
  528.        transaction (assuming it has not been completed), but not the
  529.        committed transactions.  As a result, end users only need to
  530.        check on the last transaction they were entering.  They do not
  531.        need to check on committed transactions because databases are
  532.        designed to work with the reboot mechanism SwitchOver/UX
  533.        employs.
  534.  
  535.        After the standby takes over for the failed primary, users need
  536.        to log back into the system.  Users do not need to know that
  537.        they are logging into a different system.  They can use the same
  538.        procedures they followed to login the first time (i.e.  they do
  539.        not need to use a different machine name to log in).
  540.  
  541.        FUTURE STRATEGY
  542.  
  543.        In mid 1992, SwitchOver/UX will provide interoperabilty with the
  544.        Logical Volume Manager, support an FDDI network and operation
  545.        with both SCSI and HP-FL disks. To provide a quicker recovery
  546.        period, a journaled file system is being investigated to speed
  547.        up the system reboot.  A journaled file system keeps a copy of
  548.        every disk operation that has occurred until the contents of
  549.        memory have been written to disk.  In the event a system fails,
  550.        only the changes made to the disk since the last update are
  551.        checked and reconstructed as necessary.  This greatly reduces
  552.        the file system check phase and allow quick file system
  553.        restarts.
  554.  
  555.  
  556.  
  557.      HIGH AVAILABILITY DIRECTIONS
  558.  
  559.      DISTRIBUTED AVAILABILITY
  560.      HP recognizes the trend toward distributed data processing in the
  561.      1990's.  Consequently, the horizon of availability solutions must
  562.      expand to meet these needs.  Based on trends, distributed
  563.      availability solutions will begin to play a significant role in
  564.      the 1994-1995 timeframe due to the implementation of Client/Server
  565.      technology and cooperative processing.  In addition, as business
  566.      operations are spanning the world the need for system and data
  567.      access must be independent of the distance and location.
  568.  
  569.      Distributed availability solutions consider a network of systems,
  570.      whether they are across a site or around the world, as a single
  571.      environment.  The primary goal of distributed availability is to
  572.      provide transparent data access and transaction routing in the
  573.      event that any one node, communication link, or site fails.
  574.  
  575.  
  576.      Similar to system-based high availability requirements,
  577.      distributed availability must be based on reliable systems and
  578.      data communications.  Of particular importance is the networking
  579.      of systems and the major reliance on data communications.  Through
  580.      technology defined by the Open Systems Foundation (OSF), HP plans
  581.      to incorporate the distributed networking capabilities.  HP
  582.      currently provides Network Computing Service (NCS) which is part
  583.      of the OSF Distributed Computing Environment (DCE).  NCS
  584.      facilitates the interconnectivity of systems within a heterogeneous
  585.      networked environment.  HP also will be providing FDDI
  586.      capabilities as well as redundant LAN functionality to accommodate
  587.      network robustness.  Using redundant networking, a failure of a
  588.      communications link does not impact data flow since the networking
  589.      traffic proceeds through an alternate network link.
  590.  
  591.      OSF has defined a distributed naming service to facilitate the
  592.      communication of information throughout a networked environment.
  593.      This will allow users to identify, by name, resources such as
  594.      servers, files, disks, or print queues and gain access to them
  595.      without needing to know where they are located in the network.
  596.      This will work in LAN as well as WAN environments.  Part of the
  597.      distributed naming service is the Andrews Distributed File System
  598.      from Transarc.  This provides data accessibility across geographic
  599.      sites while retaining a consistent and uniform naming convention
  600.      without compromising on performance.  The systems which encompass
  601.      the distributed environment appear as one worldwide file system.
  602.      HP plans to take advantage of the Andrews Distributed File System
  603.      in future releases of the HP-UX operating system.
  604.  
  605.      The distributed file system also will be designed to enable
  606.      administrators to do file system backups while the system is up
  607.      and running.  The plan is to create a replicated copy of the file
  608.      system, then backup the copy.  This will allow user to continue
  609.      changing the original data while performing required system
  610.      administration.
  611.  
  612.      Maintaining data integrity is critical within a distributed
  613.      environment.  The utilization of transaction processing technology
  614.      will provide transaction commitment and concurrency.  Using
  615.      protocols such as two phase commit, database vendors will maintain
  616.      data integrity through the coordination of committed transactions
  617.      to the participating distributed systems.  Two-phase commit
  618.      protocol provides the capability to either commit or abort a
  619.      transaction that spans multiple systems.  In the event one of the
  620.      participating systems in the distributed environment fails during
  621.      the course of a transaction commitment, the total commit will be
  622.      aborted.  This provides transaction integrity across multiple
  623.      systems.  After a failure, recovery can begin by identifying, from
  624.      the transaction monitor log, the uncommitted transactions.  HP
  625.      plans to take advantage of transaction technology from Transarc to
  626.      assist in the coordination and commitment of multiple-site
  627.      transactions.
  628.  
  629.      SUMMARY
  630.  
  631.      In order to meet customers' increasing availability needs, HP will
  632.      continue its high availability and fault tolerant program through
  633.      the following directions: continued enhancement of existing
  634.      availability and fault tolerant products, delivery of additional
  635.      availability functionality to "round out" the availability
  636.      offering, and movement toward providing distributed availability
  637.      solutions to meet the needs of the emerging distributed computing
  638.      trend.  When possible, these directions will leverage emerging
  639.      standards either directly or by adding value upon them.
  640.  
  641.      The HP9000 systems offer a broad range of high availability and
  642.      fault tolerant solutions today to minimize or eliminate computing
  643.      interruption and financial impact due to loss of data or
  644.      application availability.  HP plans to continue to improve these
  645.      solutions with additional availability functionality, and meet the
  646.      requirements of distributed computing by providing distributed
  647.      availability solutions in the future.
  648.  
  649.  
  650.      FAULT TOLERANT SOLUTIONS
  651.  
  652.      The Series 1200 family is designed for continuous operations, and
  653.      high performance OLTP applications. The family, is based on
  654.      Motorola's 32 bit high performance 68K microprocessors.  The two
  655.      systems, Model 1240 and Model 1245, run the same Operating System,
  656.      HP-FX, and are completely object code compatible.
  657.  
  658.  
  659.  
  660.      The Model 1240, first introduced in March 1990, is based on
  661.      Motorola's 68030 microprocessors and supports 256Kbyte of Cache.
  662.      The Model 1245, introduced in August 1991, is a board upgrade to
  663.      the Model 1240. Based on Motorola's fastest microprocessor MC68040
  664.      (rated at 20 MIPS), the Model 1245 provides up to three times the
  665.      performance of HP's low-end Fault Tolerant system.
  666.  
  667.      To achieve higher performance rates, the Model 1245 supports a
  668.      larger Cache size, which significantly minimizes the traffic
  669.      across the system backplane.  All models have a tightly coupled
  670.      architecture with processors sharing global memory.  This
  671.      architecture was designed to support symmetric multiprocessing
  672.      where system performance scales linearly as hardware resources are
  673.      added.  The systems are modular and expandable.  Upgrades and
  674.      reconfiguration can be done on-line.  HP's FT computers are based
  675.      on open systems, and conform to major industry standards.
  676.  
  677.  
  678.  
  679.      Each one of the primary system resources: Processors, Memory, or
  680.      IO Elements can be added to the system on-line, with no
  681.      interruption of the application.  Up to 32 Processor Elements can
  682.      be added to the system, providing up to 600 MIPS.  Memory Elements
  683.      are designed to support high-throughput applications, and can
  684.      support up to 2GB of shadowed memory (4GB of physical memory).
  685.  
  686.      The system supports mainframe type applications, which require
  687.      large disk farms, high-speed communications interfaces, and
  688.      support for multiple LANs.  The system also supports large number
  689.      of terminal-based users.
  690.  
  691.  
  692.  
  693.  
  694.      Designed from inception to be a Fault Tolerant platform, the 1200
  695.      system architecture ensures applications and data will always be
  696.      available.
  697.  
  698.      All critical components are duplicated, to prevent single points
  699.      of failure.  The system identifies faults within one machine cycle
  700.      to prevent any data corruption.  The failed component is
  701.      immediately isolated (in case of a permanent failure), and the
  702.      system transparently returns to normal operation.  HP-FX, 1200's
  703.      Symmetric Multi Processing Operating System, has been designed
  704.      from the ground up to eliminate malfunctions typical to other UNIX
  705.      implementations.
  706.  
  707.  
  708.  
  709.  
  710.      The 1200 systems provides an optimum trade off between hardware
  711.      and software to assure absolute data integrity.  Within one clock
  712.      cycle the system detects any faults using embedded hardware
  713.      logic.  The failed component is then isolated and the system is
  714.      logically re-configured using software techniques.  This combined
  715.      hardware/software approach is an efficient way of handling a
  716.      complex problem that occurs seldom but requires immediate action.
  717.  
  718.      Error detection and correction codes are employed in the main
  719.      memory, IO and processor cache and in the data buffers on the
  720.      system bus, to ensure the integrity of data throughout the system.
  721.      Protocol monitors are employed by each element involved in a bus
  722.      transfer to ensure data integrity on the bus.  In addition, timers
  723.      on the processor boards monitor the elapsed time between various
  724.      system events, and generate an alarm if the interval exceeds
  725.      normal limits.
  726.  
  727.      Self-checking circuitry checks all outputs. For example, each
  728.      processor element consists of two processor chips with comparator
  729.      logic onboard.  All instructions are executed to both chips, with
  730.      the results of each compared for consistency.  IO elements also
  731.      have duplicate processors that self-check each other.  Even the
  732.      error detection H/W is checked to ensure it properly functions
  733.      (who guards the guard ?).
  734.  
  735.  
  736.  
  737.  
  738.      One of the key differentiators of Models 1240/45 is the ability
  739.      to deal with both permanent and transient errors. Other systems
  740.      often treat transient errors as software errors when in fact they
  741.      usually are caused by thresholding hardware.  The capability to
  742.      deal with transient errors allows the resources of Models 1240/45
  743.      to be used much longer than if they were quickly shut down at the
  744.      first trace of a fault.
  745.  
  746.      After the hardware detects and isolates an error, HP-FX performs
  747.      the "intelligent" recovery operations.  Recovery operations
  748.      determine if error is permanent or transient.  If permanent, or if
  749.      the component has exceeded its pre-established threshold, the
  750.      system sends the process to the next available processor.
  751.  
  752.      The system relies on duplicate copies of each processes' state in
  753.      main memory.  When a failure occurs, the system can use this state
  754.      to restart the process from the point of the last cache flush.  If
  755.      it is a transient error, the module is placed back in service.
  756.  
  757.      The system can withstand multiple processor and memory module
  758.      failures.  If other components of the system fail, the system will
  759.      run, but it cannot withstand another failure in that area.  Errors
  760.      are logged to disks and reported to the system administrator.  A
  761.      repair request will also be automatically transmitted to the HP
  762.      response Center.  Fault Tolerance is transparent to application
  763.      developers.
  764.  
  765.  
  766.  
  767.  
  768.      HP-FX has been designed from the ground-up to prevent system
  769.      failures due to malfunction in the system S/W.  Other Fault
  770.      Tolerant UNIX systems, based on AT&T's UNIX Kernel, do not address
  771.      all the aspects of S/W reliability.
  772.  
  773.      HP-FX has been redesigned to improve on existing UNIX technology.
  774.      From its inception, UNIX was not built as a fault tolerant
  775.      operating System, nor has it been architected to support Symmetric
  776.      Multi Processing.  Therefore, HP-FX's Kernel was redesigned to
  777.      enable fault tolerant features needed for OLTP computing
  778.      environments.
  779.  
  780.      At any time, the system may experience a hardware fault in a PE,
  781.      ME, IOE, system bus, controller, or peripheral device.  Whenever a
  782.      fault occurs, it must be possible to recover the process that
  783.      experienced the fault without losing its process state or losing
  784.      or duplicating I/O operations.  To ensure this, the kernel
  785.      guarantees that the state of every process in main memory is
  786.      always internally consistent; that the state of kernel data
  787.      structures is consistent with the main memory process state; and
  788.      that no I/O operations are lost or repeated.
  789.  
  790.      Structured coding practices were put in place to help improve
  791.      kernel source readability, and thus expedite bus isolation and
  792.      system maintenance.  These practices are enforced through software
  793.      tools, used to guarantee consistency of HP-FX code.
  794.  
  795.      Hardware dependent code has been separated and is clearly isolated
  796.      from generic hardware independent code, thus increasing ease of
  797.      defect isolation and repair.  Additionally, new software
  798.      modifications may be more easily inserted.  New hardware
  799.      technologies require re-work of only the hardware dependent code.
  800.  
  801.      Models 1240/45 go beyond hardware fault tolerance by providing
  802.      features to minimize the chance of the system failing due to
  803.      software errors.  The primary feature is the run-time assertions.
  804.      Originally added to aid debugging, the HP-FX run-time assertions
  805.      detect inconsistent process states.  Should a comparison with an
  806.      assertion reveal an uncertainty, the OS will retry the last
  807.      operation.
  808.  
  809.  
  810.  
  811.  
  812.                                    APPENDIX A
  813.  
  814.      SwitchOver/UX Product Operation
  815.      SwitchOver/UX consists of a set of programs running on the primary
  816.      and the standby hosts.  (A host is the collection of programs and
  817.      data used by a processor.) There are two "daemon" programs which
  818.      are used to monitor the state of the primary hosts.  (A daemon
  819.      program is one which runs automatically in the background to
  820.      provide certain system services.) A primary host in a highly
  821.      available group runs a daemon called heartbeat.  This program
  822.      periodiclly transmits a message to the standby host over the local
  823.      area network.  The standby host runs a daemon called readpulse,
  824.      which "listens" for the heartbeat messages.
  825.  
  826.      There are five phases to SwitchOver/UX's operation:
  827.  
  828.          1) Normal health checking
  829.          2) Fault detection and recovery
  830.          3) Application recovery
  831.          4) Resume processing
  832.          5) Processor Repair
  833.  
  834.      Normal Health Checking During normal operation, each primary in a
  835.      loosely-coupled processor group sends out a "heartbeat" across the
  836.      LAN to the standby system informing it that everything is
  837.      functioning properly (Figure 1).  The standby system "listens" for
  838.      these heartbeats and as long as it receives these heartbeats, it
  839.      will continue to run its own applications.
  840.                                    FIGURE 1
  841.  
  842.      Fault Detection and Recovery
  843.      When the standby misses a "heartbeat" from a primary processor, it
  844.      assumes the primary has failed and begins the recovery process
  845.      (Figure 2).  First, the standby processor locks the root disk of
  846.      the primary processor.  This prevents the primary processor from
  847.      inadvertently accessing the disks and possibly corrupting data
  848.      once the standby has assumed the responsibilities of the failed
  849.      primary.  Next, the standby reboots itself using the root of the
  850.      failed system.  When the standby finishes rebooting, it will also
  851.      have the network address of the failed system.
  852.  
  853.      NOTE: Once the standby initiates the recovery process, it can not
  854.      be reversed until the processor recovery is completed.  Also, any
  855.      disks the standby was accessing prior to recovery will not be
  856.      accessible until the failed primary is repaired.
  857.  
  858.                                    FIGURE 2
  859.  
  860.      Application Recovery
  861.      After the standby system has finished assuming the identity of the
  862.      failed system, the application needs to go through their own
  863.      recovery routines.  Most databases support recovery from a reboot
  864.      and can automatically bring themselves to a consistent state.
  865.  
  866.      Custom applications need to be structured to recover from a
  867.      reboot.  Applications can be automatically restarted through the
  868.      use of HP-UX's standard initialization and start-up files.
  869.  
  870.      Resume Processing
  871.      Users log back into the system using their normal procedure, and
  872.      re-start their individual applications.  Users do not need to know
  873.      that they are running on a different processor (Figure 3).  For
  874.      most database applications, users may need to check on their last
  875.      transaction before processing was interrupted.  Typically, the
  876.      current transaction will be lost when processing is interrupted.
  877.      The amount of data loss will depend upon the individual
  878.      application and database.
  879.  
  880.      Batch applications which are interrupted will also need to be
  881.      re-started.  Depending upon the recovery capabilities of the
  882.      application, either it will need to be re-started from the
  883.      beginning or from a point where the state of the program and data
  884.      are consistent.
  885.  
  886.                                    FIGURE 3
  887.      SPU Repair
  888.      After the standby has assumed the responsibilities of the failed
  889.      primary, it becomes the primary and the failed primary is treated
  890.      as a standby system.  The failed system is then repaired using
  891.      HP's normal repair processes with the assistance of a system
  892.      administrator or repair technician.  Once the system is repaired,
  893.      it can be brought up as a standby for the other primaries or it
  894.      can resume being a primary (Figure 4).  In order to return the
  895.      failed primary to being a primary again, the standby which took
  896.      over for the primary will need to be shutdown so the primary can
  897.      regain its disks and network address.  This switchover should be
  898.      scheduled when the system is lightly loaded and users can afford
  899.      the brief downtime.
  900.  
  901.                                    FIGURE 4
  902.  
  903.      Recovery Time
  904.      The recovery time for a system is very application dependent.
  905.      Figure 5 diagrams the recovery process and shows which stages are
  906.      time dependent upon customer applications. There are three key
  907.      components to recovery time:
  908.  
  909.          1) Fault detection
  910.          2) System recovery
  911.          3) Application recovery
  912.                                    FIGURE 5
  913.  
  914.      Fault Detection
  915.      Fault detection is determined by the frequency of the heartbeats
  916.      and how many heartbeats the standby will allow to go by before it
  917.      initiates recovery procedures.  These two parameters are definable
  918.      by the system administrator.  Typically this stage of the recovery
  919.      process will take less than one minute.
  920.  
  921.      System Recovery
  922.      During system recovery the standby processor reboots and checks
  923.      all disk file systems to correct any problems that may have been
  924.      created when the primary processor failed.  The reboot time is
  925.      dependent upon the class of machine (i.e.  827, 832, etc.) and the
  926.      amount of RAM memory.  The disk checking time depends on how much
  927.      disk space is used for the file system and the state these files
  928.      were in at the time of the failure.  This component may be the
  929.      largest part of the recovery time.  It may be significantly
  930.      reduced by using databases and applications which access the disks
  931.      directly and bypass the HP-UX file system.  The most recent
  932.      versions of industry leading database products typically bypass
  933.      the file system (using raw disk) which helps to minimize recovery
  934.      times.
  935.  
  936.      Application Recovery
  937.      Once the processor has recovered and the file system is intact,
  938.      the application needs to perform its own recovery.  For databases
  939.      this would mean rolling transactions back to a known state and
  940.      then rolling them forward, completing all committed transactions
  941.      and discarding all incomplete transactions.  The time it takes for
  942.      this stage is entirely dependent upon the application and the
  943.      transaction rate prior to the failure.  This portion of the
  944.      recovery time can be minimized by choosing databases and
  945.      structuring applications to recover quickly from system reboots.
  946.  
  947.      SwitchOver/UX Configuration with DataPair/800
  948.      Disk Mirroring (DataPair/800, Product Number 92625A) is not
  949.      required for a SwitchOver/UX system, although to maximize your
  950.      data availability and integrity in a highly available environment,
  951.      it is recommended.
  952.  
  953.      SwitchOver/UX and HP DataPair/800 require Fiber-Link ("FL") disks.
  954.      Any Fiber-Link Interface disks may be used, though only disks with
  955.      the same product numbers may be mirrored.  Up to eight disks can
  956.      be connected in one P-bus chain.  The P-bus cable chains the disks
  957.      together, providing the data path for the standby processor to
  958.      access the files on the primary processor's disk(s) if a primary
  959.      fails.
  960.  
  961.      Configurations
  962.      SwitchOver/UX supports configurations of one processor acting as a
  963.      standby for up to seven primary processors.  SwitchOver/UX
  964.      operates on systems within the same HP 9000 Series 800 system
  965.      categories.  Each loosely-coupled processor group must have
  966.      processors which can boot off the same root and have identical I/O
  967.      configurations.  There are five system categories.  Systems within
  968.      the same category can be used together to form loosely-coupled
  969.      processor groups.  These categories are:
  970.           (1)         (2)        (3)       (4)       (5)
  971.           827S        822S       825S     845S      850S
  972.           847S        832S       835S               855S
  973.           857S        842S                          860S
  974.           867S        852S                          865S
  975.           877S                                      870/100
  976.                                                     870/200
  977.                                                     870/300
  978.                                                     870/400
  979.  
  980.      Note: SwitchOver/UX is not supported on the 807S, 817S, 837S, 808S
  981.      and 815S Systems.
  982.  
  983.                                   APPENDIX B
  984.  
  985.                        SWITCHOVER/UX QUESTIONS AND ANSWERS
  986.  
  987.      General Definitions
  988.  
  989.      SPU - the box containing the processor
  990.  
  991.      Host - the disks and the set of programs run by the SPU
  992.  
  993.      Asymmetric configuration - the primary SPUs are not necessarily
  994.      connected to any disks other than their own.  The standby SPU is
  995.      connected to all disks.
  996.  
  997.      Symmetic configuration - each SPU is connected to all disks.
  998.  
  999.      Primary Host - Composed of programs and data that are
  1000.      indispensable.
  1001.  
  1002.      Standby Host - Composed of tasks that may be interrupted at any
  1003.      moment without causing serious difficulty.
  1004.  
  1005.  
  1006.      SwitchOver/UX Questions:
  1007.      Q: How similar must the primary and standby hosts be?  For example,
  1008.         must they have the same disks, I/O cards,etc?
  1009.      A: There are two types of SwitchOver/UX configurations:
  1010.         symmetrical and asymmetrical.  In the symmetrical configuration
  1011.         all SPUs have access to all discs.  Anyone of the SPUs can be
  1012.         the designated standby system.  Inherent in this configuration,
  1013.         the card layout must be the same.  There can be varying number
  1014.         of disks associated with the various SPUs.  In the asymmetrical
  1015.         configuration, there is a designated standby system which has
  1016.         access to all disks in the configuration.  The I/O
  1017.         configuration of the standby SPU must be a superset of all the
  1018.         primary SPUs it is backing up.
  1019.  
  1020.      Q: What happens when the LAN fails?
  1021.      A: There are two scenarios based on the customer configuration.
  1022.         Scenario 1:  Customer has one LAN connection.  In this case,
  1023.         the heartbeat daemon running on the primary will no longer be
  1024.         able to transmit its message across the LAN.  Similarily, the
  1025.         readpulse daemon running on the standby will no longer hear
  1026.         messages from the primary.  The standby will assume the primary
  1027.         has failed and begin the takeover process.  Scenario 2:
  1028.         Customer has two LAN networks.  When there are two LANs within
  1029.         the configuration, the heartbeat messages from the primary are
  1030.         passed over BOTH LAN networks at all times.  The standby is
  1031.         listening for heartbeat messages from either LAN.  If one of
  1032.         the LANs fail, the heartbeat message will continue to be
  1033.         transmitted over the failed LAN network.  The systems will both
  1034.         continue to operate without interruption.  Note, the peripheral
  1035.         devices (DTCs, workstations, etc.) which are connected to the
  1036.         failed network may need to be switched.
  1037.  
  1038.      Q: After a failover how do you restore your switchover
  1039.         configuration?
  1040.      A: The process differs based on the configuration.  Symmetrical
  1041.         configuration:  Boot the standby host on the repaired primary
  1042.         spu.  This results in the repaired primary spu becomming the
  1043.         standby spu.  Asymmetrical configuration:  You will need to
  1044.         shutdown the SPU running the primary host (prior standby) and
  1045.         reboot the repaired primary spu to now run the primary host.
  1046.         Then, boot the standby spu to run the standby host.  Since only
  1047.         the standby spu has full access to all disks within the
  1048.         configuration, this is your only designated standby spu.
  1049.  
  1050.      Q: What are the customer deliverables with SwitchOver/UX?
  1051.      A: Customers will receive one copy of SwitchOver/UX software, two
  1052.         unique link level addresses and the Managing SwitchOver/UX
  1053.         Manual per SwitchOver/UX order (P/N 92668A).  The two unique
  1054.         link level addresses are used to reset the hardware link level
  1055.         address associated with the LAN card.  It is necessary for
  1056.         SwitchOver/UX to operate with a software link level address
  1057.         versus a hardware link level address.  Since the standby SPU
  1058.         takes over the disks of the failed primary, the link level must
  1059.         be associated with the host versus the spu.  Two addresses are
  1060.         supplied to accomodate configurations with two LAN networks.
  1061.  
  1062.      Q: Can you share disks within the SwitchOver/UX configuration?
  1063.      A: No, you cannot share data disks within your configuration.  The
  1064.         only disk which can be shared in the SwitchOver/UX
  1065.         configuration is the dump disk.  This disk can only be used as
  1066.         the dump disk; there can be no data residing on this disk when
  1067.         in shared mode.
  1068.  
  1069.      Q: Do I need the same user license level on the primaries and the
  1070.         standby?
  1071.      A. You do not need to have identical user license levels on all
  1072.         systems within the configuration.  In the event of a
  1073.         switchover, the standby system will assume the disks of the
  1074.         failed primary and therefore the user license will be that of
  1075.         the failed primary host.  If users who had been operating on
  1076.         the standby system want access to a system, they will need to
  1077.         logon to one of the operational primary systems (based on user
  1078.         license availability).
  1079.  
  1080.      Q: After the switchover has occurred, is the standby host
  1081.         available?
  1082.      A: No, the disks and programs previously running on the standby
  1083.         host are not available until the configuration is restored.
  1084.  
  1085.      Q: Are their restrictions on the systems within a SwitchOver/UX
  1086.         Configuration?
  1087.      A: Yes, there are five unique categories of systems for the
  1088.         SwitchOver/UX configuration:
  1089.  
  1090.           (1)         (2)        (3)       (4)       (5)
  1091.           827A        822S       825S     845S      850S
  1092.           847S        832S       835S               855S
  1093.           857S        842S                          860S
  1094.           867S        852S                          865S
  1095.           877S                                      870/100
  1096.                                                     870/200
  1097.                                                     870/300
  1098.                                                     870/400
  1099.  
  1100.         All systems within the SwitchOver/UX configuration must be
  1101.         within the same category.  For example a configuration may be
  1102.         an 832S and 842S.  It cannot include an 845S, 850S; it can only
  1103.         consist of 822S, 832S, 842S and 852S systems.
  1104.  
  1105.      Q: How do I switch printers/tapes from one to the other?
  1106.      A: With the DTC Device Access/ARPA software, printers can be
  1107.         shared among the systems within the configuration.  This allows
  1108.         continued access of printers and terminals even after a
  1109.         switchover.  HP-IB Tape drives can be manually switched using
  1110.         the 93550A with an HP-IB switch module.  Contact the Sales
  1111.         Response Center regarding this product.  SCSI tape drives
  1112.         cannot be switched.
  1113.  
  1114.      Q: How does SwitchOver/UX work with PLC's, SCADA systems, other
  1115.         data gathering devices?
  1116.      A. The integrity of data with SwitchOver/UX is up to the last
  1117.         committed transaction.  If the PLC, SCADA or other data
  1118.         gathering device is in the process of transmitting data to the
  1119.         S800 system when a failure occurs, that data which has not been
  1120.         committed will be lost.  The data gathering devices often have
  1121.         limited memory and therefore the transmission of data to the
  1122.         S800 may be frequent.  There could be a user written check on
  1123.         the data gathering device to determine if the data has been
  1124.         received by the S800; this could have an impact on the
  1125.         performance.
  1126.  
  1127.      Q: How far apart can the P-bused disks be?  How far apart can
  1128.         SwitchOver/UX systems be?
  1129.      A: 1000m (500 from one SPU to disks in center; 500 meters from
  1130.         disks to other SPU)
  1131.  
  1132.      Q: Will SwitchOver/UX run on the 700's and 300's?
  1133.      A: No, there are no plans at this time.
  1134.  
  1135.  
  1136.      Q: With SwitchOver/UX, is data in memory lost?
  1137.      A: If the secondary takes over, the data in memory is lost.  In
  1138.         situations where power is lost to both the primary and the
  1139.         secondary, the battery backup will kick in, and primary memory
  1140.         will not be lost.
  1141.  
  1142.      Q: Does SwitchOver/UX work in a Wide Area Network (WAN)?
  1143.      A: No, it is not with the current product implementation.  It is
  1144.         not possible for an X.25 modem to change address analogous to
  1145.         the ethernet address switch technique.
  1146.  
  1147.      Q: Can there be more than one standby spu in a loosely-coupled
  1148.         processor group?
  1149.      A: No, currently only one spu can be configured to support a set
  1150.         of primaries.
  1151.  
  1152.      Q: How much overhead is added due to the state-of-health
  1153.         (heartbeat) daemon?
  1154.      A: The state-of-health daemon uses much less than 1% of the spu's
  1155.         resources and LAN bandwidth.
  1156.  
  1157.      Q: What happens to the processes executing on the standby when
  1158.         automatic recovery starts?
  1159.      A: The default method of handling these processes is to terminate
  1160.         them immediately.  This is done in order to speed up the
  1161.         recovery time.  It is also possible to gracefully shut down the
  1162.         standby system by modifying the scripts provided with
  1163.         SwitchOver/UX.  With these modifications, all processes on the
  1164.         standby can be cleanly stopped before the standby initiates a
  1165.         reboot.
  1166.  
  1167.      Q: Does SwitchOver/UX work with SQL databases?
  1168.      A: SwitchOver/UX is designed to work with industry standard
  1169.         databases like Oracle, Informix, Sybase, Ingres, Allbase, etc.
  1170.         Some databases will perform better than others with
  1171.         SwitchOver/UX because they can be configured to reduce recovery
  1172.         times.  Databases which support direct disk access and user
  1173.         definable recovery times work best with SwitchOver/UX.
  1174.         Informix, Oracle and Sybase access the disk directly.  Also,
  1175.         some databases have parameters which can be set to limit the
  1176.         time needed to recover the database after an spu reboot.
  1177.  
  1178.      Q: How does this product impact applications?
  1179.      A: In general, applications do not need to be modified to take
  1180.         advantage of SwitchOver/UX.  To reduce data loss or speed up
  1181.         recovery times, you may choose to modify your applications.
  1182.         For example, to reduce data loss, the application can be
  1183.         written to prevent the user from entering new transactions
  1184.         until the previous transaction is committed.  This technique
  1185.         would elimate data loss and speed up recovery, although it
  1186.         would reduce throughput.
  1187.  
  1188.      Q: In a SwitchOver/UX configuration with disk mirroring on the
  1189.         primary, when the standby takes over, are the disks re-imaged?
  1190.      A: Upon reboot, the disks will be checked to deterime if they were
  1191.         previously "in synch".  If they were and there is no file
  1192.         corruption, no re-synching is required and none will be done.
  1193.  
  1194.      Q: When using SwitchOver/UX, can I have something, such as an
  1195.         operator phone call initiated when the primary system has
  1196.         failed?
  1197.      A: Yes.  When the primary system has failed, a script file can be
  1198.         invoked on the standby system.  This script can be customized
  1199.         to the specific requirements of your environment.
  1200.  
  1201.      Q: When will SwitchOver/UX and DataPair/800 support SCSI?
  1202.      A: SwitchOver/UX will support SCSI disks with HP-UX Release 9.0.
  1203.         This is planned for release mid 1992.  HP DataPair/800 will not
  1204.         be enhanced to support SCSI disks.  Logical Volume Manager
  1205.         (LVM) will provide SCSI and HP-FL disk mirroring functionality.
  1206.  
  1207.  
  1208.